Minimización de arrepentimiento para aprendizaje de preferencias en LLMs
RePO minimiza el arrepentimiento para mejorar el aprendizaje de preferencias en LLMs. Resultados superiores en razonamiento y preferencias humanas. ¡Descúbrelo!
RePO minimiza el arrepentimiento para mejorar el aprendizaje de preferencias en LLMs. Resultados superiores en razonamiento y preferencias humanas. ¡Descúbrelo!
Descubre cómo la incertidumbre en RLHF se unifica con un modelo distribucional, mitigando el reward hacking. Clave para optimización robusta.
Descubre Foresight, un marco de razonamiento iterativo que mejora un 37% el éxito de navegación y reduce un 52% las intervenciones en robots, usando VLMs.
El paper 'Hidden Consensus' revela cómo la agregación mayoritaria en RLHF oculta preferencias plurales. Descubre por qué la mayoría no mide alineación real.
Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.
R4: nuevo método de aprendizaje por refuerzo que aprende recompensas a partir de calificaciones humanas con garantías formales y rendimiento superior en robótica.
Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.
Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.
Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje.
La exploración explícita clave para optimizar preferencias Nash en modelos de lenguaje: nuevo algoritmo logra mejor equilibrio y menor arrepentimiento.